BRAIN MIND & LIFE - Perché due note reti neurali artificiali non simulano quelle naturali

Perché due note reti neurali artificiali non simulano quelle naturali

PATRIZIO PERRELLA & DIANE RICHMOND

NOTE E NOTIZIE - Anno XXI – 03 febbraio 2024.

Testi pubblicati sul sito www.brainmindlife.org della Società Nazionale di Neuroscienze “Brain, Mind & Life - Italia” (BM&L-Italia). Oltre a notizie o commenti relativi a fatti ed eventi rilevanti per la Società, la sezione “note e notizie” presenta settimanalmente lavori neuroscientifici selezionati fra quelli pubblicati o in corso di pubblicazione sulle maggiori riviste e il cui argomento è oggetto di studio dei soci componenti lo staff dei recensori della Commissione Scientifica della Società.

[Tipologia del testo: RECENSIONE]

Studiando la codifica degli stimoli visivi da parte di popolazioni neuroniche lungo la via che va dalla retina alla corteccia visiva, un team di ricercatori di ambito neurobiologico e di computer science ha messo a punto un metodo per definire la relazione funzionale esistente tra grandi popolazioni di cellule nervose di circuiti complessi, come quelle della retina e dell’area corticale V1. Tale metodo consente una comparazione globale tra sistemi di neuroni cerebrali e reti neurali dell’intelligenza artificiale (AI, artificial intelligence).

La neuroretina e la corteccia visiva primaria (V1) presentano entrambe varie popolazioni neuroniche sensibili specificamente a ciascuno dei numerosi elementi costituenti i tratti rilevanti di ciò che l’occhio rileva e il cervello vede, grazie alla sintesi integrativa dell’elaborazione parallela di 32 aree corticali nell’uomo. Considerando solo la prima parte della via visiva del cervello dei mammiferi, dalla retina al primo arrivo corticale a V1 delle fibre di proiezione dal corpo genicolato laterale, si possono paragonare le popolazioni codificanti della retina con quelle di V1, e studiare il modo in cui, in ciascuna delle due aree, avviene la ripartizione dello spazio per lo stimolo, per la definizione della dimensione di rappresentazione degli elementi percepiti.

Finora sono state seguite due ipotesi corrispondenti ad altrettante possibilità contrapposte: 1) le popolazioni neuroniche sono organizzate in gruppi discreti di neuroni, con ciascun gruppo segnalante una particolare costellazione di elementi percettivi; 2) i neuroni sono distribuiti continuamente attraverso uno spazio di codifica degli elementi percettivi.

Luciano Dyballa e colleghi hanno preso le mosse dalla verifica di queste due ipotesi contrapposte; poi, proseguendo nell’osservazione sperimentale, sono giunti a una conclusione di grande rilievo e interesse, comparando sistemi di neuroni cerebrali e reti neurali artificiali.

(Dyballa L. et al., Population encoding of stimulus features along the visual hierarchy. Proceedings of the National Academy of Sciences USA – Epub ahead of print doi: 10.1073/pnas.2317773121, 2024).

La provenienza degli autori è la seguente: Department of Computer Science, Yale University, New Haven, CT (USA); Department of Neurobiology, Duke University, Durham, NC (USA); Department of Physiology, University of California, San Francisco, CA (USA); Department of Ophthalmology, David Geffen School of Medicine, University of California, Los Angeles, CA (USA); Kavli Institute for Fundamental Neuroscience, University of California, San Francisco, CA (USA); Department of Biomedical Engineering, Yale University, New Haven, CT (USA).

Per avvicinare il lettore all’intelligenza artificiale (AI, da artificial intelligence), un campo di grande attualità per la recente popolarità di alcuni suoi prodotti ma ancora poco noto alla maggioranza nella sua genesi e nei suoi protagonisti, si propone una cronologia delle principali tappe del suo sviluppo.

Non esiste una data universalmente condivisa per l’effettiva nascita dell’AI come nuova disciplina a sé stante, ma molti concordano nel considerare il lavoro di McCulloch e Pitts del 1943[1] un primo significativo passo in tale direzione. In questo lavoro gli autori, basandosi su alcune considerazioni sviluppate precedentemente da Alan Mathison Turing nel 1937[2], introducono il primo modello matematico di rete neurale artificiale e dimostrano che elementi semplici connessi in una rete neurale possono avere un’enorme potenza computazionale. In particolare, dimostrano che a) tutti i connettivi logici possono essere effettuati da piccole reti così definite e che b) per ogni funzione calcolabile[3] è possibile definire una rete neurale che la calcoli.

Nel 1949 Donald Hebb[4], in un’opera che sarebbe poi divenuta una pietra miliare della neurobiologia, osserva che la scarica simultanea dei neuroni presinaptico e post-sinaptico determina un potenziamento reciproco che potrebbe essere la base dell’apprendimento (Hebb’s rule). Il criterio viene adottato come una semplice regola di aggiornamento per modificare la forza di connessione tra le unità artificiali che rappresentano i neuroni. In virtù di tale regola, che prenderà il nome di apprendimento hebbiano, le reti neurali di McCulloch e Pitts diventano capaci di apprendere.

Nell’estate del 1950 Marvin Minsky e Dean Edmonds costruiscono la prima rete neurale analogica: una macchina che prenderà il nome di SNARC (stochastic neural-analog reinforcement calculator). Nello stesso anno Alan Turing pubblica, sulla rivista Mind, “Computing machinery and intelligence”[5]: un articolo destinato a diventare un riferimento imprescindibile in questo campo. Turing argomenta circa la possibilità che le macchine possano o meno produrre pensiero[6] e propone una versione dell’imitation game riferito alle macchine, che diventerà famoso come Test di Turing[7].

Nel 1952, Arthur Samuel alla IBM e Christopher Strachey all’Università di Manchester sviluppano, indipendentemente, software in grado di giocare a Dama.

Nel 1956 ha luogo un evento chiave che alcuni considerano, ancor più dell’articolo di McCulloch e Pitts, il vero atto di nascita dell’AI: la Dartmouth Conference. Un workshop di due mesi tenuto nell’estate del 1956 da John McCarthy, Marvin Minsky, Claude Shannon e Nathaniel Rochester mettendo insieme i loro comuni interessi per reti neurali, teoria degli automi e scienza cognitiva. In seno a tale conferenza nasce la prima definizione di AI: McCarthy definì l’intelligenza artificiale come “la scienza e l’ingegneria per creare macchine intelligenti”. In quello stesso anno Newell e Simon creano l’IPL (Information Processing Language), un linguaggio di programmazione di tipo list-processing, con il quale realizzano il Logic Theorist (LT): un programma in grado di dimostrare teoremi operando in logica simbolica. E, sempre nel 1956, Arthur Samuel realizza il Reinforcement Learning: un tipo di algoritmo in cui un sistema di AI impara come interagire con l’ambiente circostante per raggiungere il proprio obiettivo attraverso un sistema basato sulla ricompensa.

Nel 1957 Newel e Simon realizzano il General Problem Solver (GPS) progettato con l’intento di imitare con dei protocolli le procedure di risoluzione dei problemi (problem solving) attuate dal cervello umano. E, ancora, Frank Rosenblatt costruisce Mark I Perceptron alla Cornell University: una rete neurale analogica a singolo strato in grado di apprendere per tentativo ed errore.

Nel 1958 John McCarthy introduce il linguaggio di programmazione LISP (LISt Processing) ideato specificamente per applicazioni esecutive nell’ambito dell’AI.

Nel 1959 Nathaniel Rochester e Herbert Gelernter della IBM realizzano nel linguaggio FORTRAN la Geometry Machine: un programma in grado di dimostrare teoremi di geometria non banali.

Anche nel campo dell’automazione incominciano ad aversi sviluppi ascrivibili all’ambito dell’AI: nel 1961 la General Motors impiega il braccio meccanico “Unimate” per lavori in metallo e saldature. Nel 1962 il metodo di apprendimento hebbiano, introdotto da Donald Hebb nel 1949, viene migliorato, rispettivamente, da Widrow, nelle reti chiamate Adaline e Madaline nelle quali si introduce l’algoritmo di backdiffusion, e da Rosenblatt, con i Perceptrons.

Negli anni seguenti, fra il ’63 e il ’64, vengono sviluppati (in LISP) vari software per la risoluzione di problemi di algebra e di geometria. Il 1966 è ancora un anno significativo per la storia dell’AI. Joseph Weizenbaum sviluppa, al MIT, ELIZA, il primo chatbot della storia dell’AI, progettato per simulare il comportamento di uno psicoterapeuta nell’atto di porre domande ad un paziente ed intrattenere con lui una conversazione a scopo terapeutico. Sempre nello stesso anno, allo Stanford Research Institute, viene realizzato SHAKEY, il primo robot multiuso con piattaforma mobile in grado di “ragionare” sull’ambiente circostante.

Nel 1969 Minsky evidenzia un limite dei Perceptrons: ovvero che un Perceptron a singolo strato (single-layer Perceptron) non può eseguire la funzione logica XOR.

All’inizio degli anni ’70 nascono i SISTEMI ESPERTI: un nuovo approccio, attuato inizialmente alla Carnegie Mellon University e basato sull’impiego di informazioni specifiche del dominio di applicazione del particolare sistema di AI. E, nel 1971, alla Stanford University, Feigenbaum avvia l’Heuristic Programming Project finalizzato ad estendere le aree di applicazione dei sistemi esperti.

Nel 1979, Kunihiko Fukushima propone il “neocognitron”, la prima architettura di rete neurale convoluzionale (CNN) inizialmente impiegata per il riconoscimento della scrittura giapponese.

Nel 1982, McDermott sviluppa R1, il primo sistema esperto che ha successo commerciale.

Nel corso degli anni ’80, e successivamente negli anni ’90, l’algoritmo di backpropagation, un meccanismo primario di apprendimento per le reti neurali, viene ampiamente rielaborato ed applicato intensivamente.

Nel 1989, Yann LeCun rivisita le reti neurali convoluzionali e, impiegando l’algoritmo di ottimizzazione del gradiente discendente (gradient descend) nel loro meccanismo di addestramento, le rende adatte all’applicazione a problemi riguardanti la visione artificiale, come ad esempio il riconoscimento di cifre scritte a mano.

Nel corso degli anni ’90 l’AI si apre ad altri campi, quali la ricerca operativa e la statistica. E, proprio con l’apertura a modelli probabilistici, in questi anni si ha l’introduzione delle reti Bayesiane. Nel 1998 Sutton rivisita l’apprendimento per rinforzo (reinforcement learning) adottando i processi di decisione di Markov. In questo periodo il progresso tecnologico nella potenza di calcolo dei computer e la diffusione globale di internet fanno sì che si generi una enorme quantità di dati digitali: nasce così l’era dei Big Data. Inoltre si ha una rinascita dell’interesse per l’AI in ambito industriale.

Nel 2006 si hanno le prime applicazioni di reti neurali convoluzionali su unità di elaborazione grafica. Tali reti mostrano prestazioni quattro volte più veloci rispetto a quelle dei computer convenzionali, ovvero basati su una CPU (Central Processing Unit).

Nel 2009 nasce l’ImageNet dataset, un database contenente milioni di immagini etichettate.

Nel 2011 Watson, un sistema di AI sviluppato dalla IBM, sconfigge il campione di Jeopardy, un quiz televisivo della NBC molto noto negli USA. Nello stesso anno la Apple introduce sul mercato l’assistente intelligente SIRI.

In questa fase della storia dell’AI la potenza di calcolo delle unità di elaborazione grafica raggiunge un livello tale da consentire un addestramento delle reti estremamente rapido ed efficace.

Nel 2012 il gruppo di ricerca di Geoffrey Hinton dell’Università di Toronto sviluppa AlexNet[8], una rete neurale convoluzionale profonda (deep convolutional neural network) con una architettura in grado di gestire l’addestramento di più strati distinti di neuroni. La rete AlexNet vince la ImageNet Large Scale Visual Recognition Challenge (ILSVRC), migliorando significativamente tutti i parametri di classificazione di ImageNet[9].

Nel 2016 AlphaGo, un Sistema di AI che combina reti neurali profonde con algoritmi avanzati di ricerca, batte il campione del mondo di Go[10].

Nel 2018 Yoshua Bengio, Geoffrey Hinton, e Yann LeCun vincono il Turing Award per i loro contributi pionieristici nell’ambito del deep learning, ovvero l’apprendimento delle reti neurali a molti strati.

Gli anni più recenti, dal 2020 ad oggi, sono caratterizzati dalla crescita esplosiva dell’AI generativa (generative AI). I sistemi di AI generativa sono progettati per produrre testi, immagini o altri tipi di output multimediali, in risposta a semplici richieste ricevute in input. Si basano su particolari modelli statistici, che prendono appunto il nome di modelli generativi, e tipicamente impiegano reti neurali profonde e deep learning. In questo ambito sono ormai ben noti anche al grande pubblico degli utilizzatori del Web prodotti quali, ad esempio, ChatGPT[11] e Bard[12], in quanto resi disponibili all’accesso tramite Internet dai relativi produttori, anche in modalità gratuite, proprio allo scopo di accelerarne quelle fasi di addestramento che non richiedono supervisione[13].

Ritorniamo ora allo studio di Luciano Dyballa e colleghi, qui recensito.

La struttura polistratificata complessa della neuroretina murina presenta una formazione di output del segnale costituita da un set di circa 40 tipi distinti di cellule gangliari della retina (RGC), con ciascun tipo caratterizzato da morfologia, espressione genica e risposte visive proprie. Questa peculiarità ha suggerito un’interpretazione fisiologica coerente del complesso della segnalazione in uscita: specifici tipi cellulari si ritiene corrispondano a specifici elementi visivi codificati per le corrispondenti aree della corteccia visiva primaria (V1). Ma, considerando le rappresentazioni somatotopiche (cute) e tonotopiche (coclea) dell’anatomia funzionale sensoriale, è lecito chiedersi: secondo quale criterio questi specifici elementi sono organizzati nella corteccia visiva?

A questo interrogativo ha cercato di dare risposta la ricerca recente. Molti studi hanno focalizzato l’attenzione sulla fisiologia delle vie parallele nei sistemi sensoriali e, in particolare, sui tratti paralleli di fibre nel sistema visivo[14]^,[15]. Una possibilità è che gli elementi visivi segnalati da vie parallele originate dalle differenti classi di RGC si combinino a formare nuovi raggruppamenti di caratteri nella corteccia[16]^,[17]. Una possibilità alternativa è che l’organizzazione corticale dell’informazione visiva sia un continuum, differente nella sostanza da quella della retina, nonostante l’evidenza montante di identità neuroniche distinte in V1, con tipi cellulari corticali di differenti morfologie, trascrittomi e proprietà fisiologiche intrinseche.

Luciano Dyballa e colleghi, per sottoporre a verifica sperimentale queste due ipotesi, hanno presentato una batteria di stimoli visivi alla retina e all’area V1 di topi, simultaneamente misurando le risposte neurali con la tecnica MEA (multi-electrode arrays). Usando approcci di machine learning, i ricercatori hanno sviluppato una tecnica di inclusione di varietà che cattura il modo in cui le popolazioni neuroniche ripartono lo spazio degli elementi e come le risposte visuali sono correlate alle proprietà anatomiche e fisiologiche dei singoli neuroni.

L’osservazione sperimentale fornisce l’evidenza che al livello delle popolazioni le rappresentazioni degli elementi degli stimoli visivi sono sostanzialmente differenti tra retina e corteccia visiva: 1) le popolazioni neuroniche retiniche sono raccolte in cluster, che campionano i caratteri codificandoli in modo discreto; 2) le popolazioni neuroniche di V1 realizzano una rappresentazione in modo continuo degli elementi visivi codificati.

Dopo aver rilevato questa differenza e aver stabilito che i due tipi di organizzazione funzionale caratterizzano, rispettivamente, una struttura nervosa recettoriale e un’area della corteccia cerebrale, i ricercatori hanno applicato lo stesso approccio analitico a due popolari reti neurali artificiali, in particolare due convolutional neural network concepite come modello della rete naturale che elabora l’informazione visiva. L’esito dello studio ha mostrato, in modo inequivocabile, che la ripartizione degli elementi informativi nelle reti artificiali è prossima a quella dei neuroni retinici e distante da quella delle popolazioni di cellule nervose della corteccia cerebrale.

Concludiamo con un’osservazione degli autori che, a nostro avviso, esprime in modo sintetico ed efficace il senso emerso dallo studio: queste reti neurali sono più simili a grandi retine che a piccoli cervelli.

Gli autori della nota ringraziano la dottoressa Isabella Floriani per la correzione della bozza e invitano alla lettura delle recensioni di argomento connesso che appaiono nella sezione “NOTE E NOTIZIE” del sito (utilizzare il motore interno nella pagina “CERCA”).

Patrizio Perrella & Diane Richmond

BM&L-03 febbraio 2024

www.brainmindlife.org

________________________________________________________________________________

La Società Nazionale di Neuroscienze BM&L-Italia, affiliata alla International Society of Neuroscience, è registrata presso l’Agenzia delle Entrate di Firenze, Ufficio Firenze 1, in data 16 gennaio 2003 con codice fiscale 94098840484, come organizzazione scientifica e culturale non-profit.

[1] Warren S McCulloch and Walter Pitts, A logical calculus of the ideas immanent in nervous activity. The bulletin of mathematical biophysics 5 (4): 115–133, December 1943.

[2] Alan Mathison Turing. On computable numbers, with an application to the entscheidungsproblem. Proceedings of the London Mathematical Society 2 (1): 230–265, 1937.

[3] L’articolo fa riferimento alla calcolabilità mediante macchina di Turing e, via Tesi di Church, alla calcolabilità mediante algoritmi.

[4] Donald Olding Hebb, The Organization of Behavior: A Neuropsychological Theory. John Wiley & Sons, Inc., New York 1949.

[5] A M Turing, Computing machinery and intelligence. Mind, LIX (236): 433–460, October 1950.

[6] Di grande immediatezza l’incipit dell’articolo: “I PROPOSE to consider the question, ‘Can machines think?’ This should begin with definitions of the meaning of the terms ‘machine’ and ‘think’ […]”.

[7] La ratio alla base del test di Turing, che in estrema sintesi consiste nel tentativo di discriminare un operatore umano da uno artificiale esclusivamente attraverso il comportamento esibito, è ancora molto attuale. Ne è prova il suo largo impiego, in una forma generalizzata, nei protocolli di sicurezza Web che utilizzano i cosiddetti CAPCHA (Completely Automated Public Turing test to tell Computers and Humans Apart).

[8] Dal nome di Alex Krizhevsky, il principale autore della rete fra i membri del team.

[9] Ciò in particolare si realizza perché AlexNet, utilizzando molti meccanismi e tecniche come le funzioni di attivazione di unità lineari rettificate e la tecnica del dropout, raggiunge un potere discriminante più elevato in modo end-to-end, ovvero alimentando la rete direttamente con le immagini pure.

[10] Il Go è un antichissimo gioco da tavolo di strategia, di origine cinese.

[11] ChatGPT, acronimo di Chat Generative Pre-trained Transformer (dove per Trasformer si intende un tipo di rete profonda basata su un particolare algoritmo di deep learning), è un chatbot, prodotto dalla OpenAI, specializzato nella conversazione con un utente umano.

[12] Bard è il chatbot di Google specializzato nella conversazione con utenti umani.

[13] Alcuni di questi sistemi di AI generativa prevedono un protocollo di semi-supervised learning che consiste in una prima fase intensiva di apprendimento supervisionato (supervised learning) seguita da una successiva esposizione ad una massa estremamente grande di dati mediante una fase di apprendimento non supervisionato (unsupervised learning).

[14] Froudarakis E. et al., The visual cortex in context. Annu Rev Vis Sci. 5, 317-339, 2019.

[15] Harris J. A. et al., Hierarchical organization of cortical and thalamic connectivity. Nature 575, 195-202, 2019.

[16] Livingstone M. & Hubel D., Segregation of form, color, movement and depth: Anatomy, physiology and perception. Science 240, 740-749, 1988.

[17] Bakhtiari S. et al., the functional specialization of visual cortex emerges from training parallel pathways with self-supervised predictive learning. Adv Neural Inf Process Syst. 34, 25164-25178, 2021.